1 CRE
考虑一个实验, 有 个单元, 其中 个为实验组, 个为对照组.
记 , 满足 , . 则 完全随机实验(Completely randomized experiment, CRE) 指符合下面的对照组分配机制:
在这里我们认为 和 都固定, 则因为 , 有
2 FRT
Fisher 对下面的零假设感兴趣: 称为 Fisher 随机化检验 (Fisher randomization test, FRT). 假设 成立, 则任意检验统计量 (由于 固定事实上就是 的函数), 根据 CRE 假设 在 上均匀分布, 这里 , 因此 在 上均匀分布.
如果认为大值对于 来说更极端, 我们可以这样衡量极端性: 这就是 FRT 的 值.

可以注意到, 下
记 是 的分布函数. 尽管它是个阶梯函数, 我们认为它连续、严格单增, 所以 , 因此 实际出现不等号, 是因为离散化造成的误差.
在实际上, 会很大, 我们会用 Monte Carlo 方法近似 . 也即随机取 个 : , 则 .
3 检验统计量的取法
尽管 FRT 允许任意检验统计量, 我们希望检验统计量也能提供足够否定 的信息.
3.1 基于样本均值的取法
定义 这里 是实验组 () 结果的样本均值, 则是对照组的.
在 下, 它有期望 以及方差 这里
首先
和 这样 然后注意到 , 因此
另一方面因为 , 且 固定, 因此可以直接用 作为检验统计量.
由于我们观测到的数据分别来自子集 , 因此问题本质上是一个双样本问题. 我们直接使用双样本 检验量
另外我们可以通过代数运算得到
当样本量 很大, 我们忽略 与 , 还有 与 的差别. 在 下, , 因此我们的 例子 中的 值和双样本 t 检验的 值近似一致.
t 检验量 (Studentized statistic)
另一个检验量是 这里 是两组各自的样本方差. 在 下, 依据有限总体中心极限定理, . 这样我们可以得到一个近似 t 检验的 值.
3.2 基于排序的取法
上述的 都会被离群值轻易影响, 从而降低稳定性.
Wilcoxon 秩和检验 (Wilcoxon rank sum)
定义 是 在样本集合 中的排序: 则 Wilcoxon 秩和检验量 是实验组的排序之和: (我们假设排名没有平局情况). 因为总的排名和为 , 所以 Wilcoxon 秩和检验等价于两组均值之差. 在 下, 固定 , 有 以及 (第二行参考). 从而在 下有限总体中心极限定理得到 据此构建检验量.
3.3 基于经验分布
定义 经验分布: 定义 Kolmogorov-Smirnov 检验量 经过若干计算,